Recursively Criticizes and Improves 論文
https://scrapbox.io/files/668cebddff9659001ca95de4.png
論文情報
タイトル:Language Models can Solve Computer Tasks
発行日:2023年11月
著者:Geunwoo Kim et al
所属:University of California
論文のポイント
行動ステップを以下の3つの推論ステップに分解し、RCIをそれぞれ適応する。
3つのグラウンディング
https://scrapbox.io/files/668e3bfa6e61ad001c8b8b63.png
GSM8KでのRCIプロンプトの効果
https://scrapbox.io/files/668e325b6150da001d8b6b80.png
Zero-Shotとの比較
RCIで著明に改善。
https://scrapbox.io/files/668e4606df3b24001ddb7d8a.png
CoTとの比較
CoTより、Zero-Shot + RCIが4/5で上回る
https://scrapbox.io/files/668e483c466fd0001d8e7185.png
⚠️注意点
8つの推論タスク(+ GPT-3.5)では、最大ループ数を2とし、出力が正解なら終了とした。
この外部フィードバックがないと、RCIで結果が劣化した
偽陰性の批評をするためと考えられた
https://scrapbox.io/files/668e4491e856b5001cd0313a.png
ループ回数を3に設定した
RCIアプローチが1位の結果に
教師あり学習と強化学習を組み合わせた使用においてさえ、SoTAをわずかに上回った
https://scrapbox.io/files/668e4be72376c0001dbc4e33.png
各グラウンディング(Task, State, Agent)のアブレーション研究の結果
どれも結果が下がった
https://scrapbox.io/files/668e4e1ded7d6f001cf0df78.png
論文を読んで感じたこと
推論タスクのRCIの結果を見ると、ループ数が多ければいいというものでもない。
2くらいがいいか。批評が間違っていたらアウト。
推論タスクのプロンプトは、これになりそう (GitHubに乗ってなかった)
https://scrapbox.io/files/668f732f74b419001c358b89.png
code: プロンプト
<Initial output generation>
A: {Initial output generation}
<Critique>
Review your previous answer and find problems with your answer
{Critique}
<Improve>
Based on the problems you found, improve your answer.
{Final Answer}
実際のプロンプトの使用例
https://scrapbox.io/files/668f7440a66105001dd2941c.gif
概要
コンピュータ上で一般的なタスクを実行できるエージェントは、反復的なタスクを自動化し、複雑な問題解決を支援することで、効率性と生産性を向上させることができます。理想的には、そのようなエージェントは自然言語による命令を通じて提示される新しいコンピュータタスクを解決できるべきです。しかし、この問題に対する以前のアプローチは、大量の専門家によるデモンストレーションとタスク固有の報酬関数を必要とし、これらは新しいタスクに対しては実用的ではありません。
hiroya_iizuka.icon そうなのか、知らなかった。
本研究では、事前学習された大規模言語モデル(LLM)エージェントが、エージェントが出力を再帰的に批評し改善する(RCI)という単純なプロンプト方式を用いて、自然言語によって導かれるコンピュータタスクを実行できることを示します。
RCIアプローチは、コンピュータタスクの自動化に対する既存のLLM手法を大きく上回り、MiniWoB++ベンチマークにおいて教師あり学習(SL)と強化学習(RL)のアプローチを凌駕します。我々は複数のLLMを比較し、InstructGPT-3+RLHFを用いたRCIがMiniWoB++において最先端であることを見出しました。 これは、タスクごとに数万ではなくわずか数個のデモンストレーションを使用し、タスク固有の報酬関数を必要としません。さらに、我々はRCIプロンプティングが一連の自然言語推論タスクにおいてLLMの推論能力を向上させる効果を実証し、外部フィードバックを伴う思考の連鎖(CoT)プロンプティングを上回ることを示しました。RCIとCoTを組み合わせると、それぞれ単独で使用するよりも良い性能を発揮することがわかりました。
1 はじめに
人工知能における長年の目標の1つは、人間と同じように認知タスクを遂行できる一般的に知的なエージェントを作ることでした。そのようなエージェントは、自然言語でコミュニケーションすることで、人間ができるあらゆるコンピュータタスクを解決できるはずです。反復的なタスクを自動化し、複雑な問題解決を支援することで、一般的に知的な仮想エージェントは生産性を劇的に向上させる可能性があります。
最近、大規模言語モデル(LLM)は、様々な領域やタスクにわたって驚くべき文脈内学習能力を示しています。LLMはテキストを印象的に操作し、高レベルのAPIツールを使用できますが、コンピュータ上で直接キーボードとマウスの操作を行うLLMを使用する以前のアプローチは、模倣学習や強化学習のアプローチと比較して困難に直面していました。コンピュータ上でキーボードとマウスの操作を行うLLMは、生成された行動がタスクに適切であること(タスクのグラウンディング)、エージェントの現在の状態で実行可能であること(状態のグラウンディング)、実行可能であること(エージェントのグラウンディング)など、いくつかの障害に直面しています。
hiroya_iizuka.icon これどういう意味だろう?? -> 2.2.2で解説してるよ
コンピュータ上で行動を取る以前の最高性能のアプローチはLLMを使用していませんでした。代わりに、プロンプトとスクリーンショットまたはDOM情報を与えられた際に行動を予測するネットワークを、専門家のデモンストレーションからの教師あり学習(SL)、手作業で作成された報酬信号に基づく強化学習(RL)、またはその両方(SL+RL)を通じて一から訓練していました。SL+RLは多くの個別のコンピュータタスクでうまく機能しますが、すべてのタスクに対して専門家のデータと報酬関数が必要なため、少数ショット設定での新規タスクへの一般化は示されていません。
本研究では、事前学習されたLLMエージェントが自然言語によって導かれるコンピュータタスクを正常に実行できることを示します。我々の手法は、再帰的批評と改善(RCI)と呼ぶ単純なプロンプト方式を採用しており、これはコンピュータタスクの自動化に対する既存のLLM手法を大きく上回ります。
RCIはまず、Zero-Shotプロンプティングに基づいてLLMに出力を生成させます。次に、RCIはLLMに与えられた出力の問題点を特定するようプロンプトします。LLMが出力の問題点を特定した後、RCIはLLMに更新された出力を生成するようプロンプトします。 コンピュータタスクにRCIを適用する際、我々はタスクのグラウンディング、状態のグラウンディング、エージェントのグラウンディングを順次改善します。
まず、タスクのグラウンディングでは、タスクテキストでLLMにプロンプトを与え、高レベルの計画を生成するよう指示します。
次に、状態のグラウンディングでは、タスクのグラウンディングステップから得られた高レベルの概念を現在の状態に存在する実際のHTML要素と結び付け、その後適切な行動を出力します。
最後に、エージェントのグラウンディングでは、状態のグラウンディングステップから得られた行動出力の正しいフォーマットを確保します。
RCIはこれら3つのステップそれぞれに適用されます。ただし、状態のグラウンディングステップの批評は一度だけ必要であることがわかりました。
我々はRCIアプローチをMiniWoB++ベンチマークで評価し、既存のSL、RL、LLMアプローチを上回ることを示します。さらに、既存の手法と比較して最先端であることが証明され、タスクあたり数万ではなくわずか数個のデモンストレーションを使用し、タスク固有の報酬関数に依存しません。必要なデモンストレーション数の大幅な削減とタスク固有の報酬関数の排除により、我々の手法は新しいタスクに対してより実用的でアクセスしやすいものとなります。さらに、LLMの能力が向上し続けるにつれ、我々の手法の性能も向上すると期待できます。 コンピュータタスクの自動化における成功に加えて、我々はRCIプロンプティングが一連の自然言語推論タスクにおいてLLMの推論能力を向上させる効果も示します。
hiroya_iizuka.icon ありがと!これが知りたかった。
hiroya_iizuka.icon CoTさせて、パワハラ使えってこと? -> そうだった。(Table 2)
要約すると、我々の研究は、LLMエージェントが自然言語によって導かれるコンピュータタスクを実行できるようにする新しい強力で実用的なアプローチを提示します。RCIプロンプティング方式は、コンピュータタスクにおいて以前の手法を上回るだけでなく、より広くLLMの推論能力も向上させ、知的エージェントの開発において重要な貢献となります。
2 手法
2.1 RCIプロンプティング
LLMの自己批評能力は、LLMが自身の出力の誤りを自ら見つけられることを示しています。
これを踏まえ、我々はRCIプロンプティングと呼ぶ単純な推論アーキテクチャを導入します。ここでは、LLMに出力の問題点を見つけ、見つけたものに基づいて出力を改善するようプロンプトします。このアーキテクチャは、最終的な回答を生成する前に批評ステップを挿入することで、LLMの推論能力をさらに向上させるように設計されています。
hiroya_iizuka.icon まさに、パワハラ〜!
図2は、GSM8KデータセットにおけるRCIプロンプティングとベースラインプロンプティング手法の例のトレースを比較しています。 https://scrapbox.io/files/668e325b6150da001d8b6b80.png
ここでは、言語モデルが小学校レベルの数学問題に答える必要があります。ベースラインは1ステップのプロンプティングで回答を引き出しますが、RCIは2つのステップで構成されています:前の回答を批評し(例:「前の回答を見直し、回答の問題点を見つけてください」)、批評に基づいて回答を改善します(例:「見つけた問題点に基づいて、回答を改善してください」)。このようにして、RCIプロンプティングは前の回答の誤り(例:全体の金額の合計にヴァレリーと彼女の兄弟のみが考慮されている)を見つけ、批評を条件として改善された回答(例:ヴァレリーの母親の金額が合計に含まれている)を生成します。RCIの反復プロセスは、環境からのフィードバックの受信、事前に決められた最大反復回数の到達、または特定のヒューリスティックの遵守など、特定の条件が満たされるまで続けることができます。
我々は、RCIを達成するために2つのアプローチを定義します:明示的RCIと暗黙的RCIです。明示的RCIは、改善された出力を生成するためにプロンプトに批評を含めます。一方、暗黙的RCIは明示的に批評をサンプリングせずに直接前の出力を更新します。コンピュータタスクに適用される明示的RCIと暗黙的RCIの例を図3に示します。ここでは、行動計画が明示的な批評に基づいて改善される一方で、行動は明示的な批評なしで更新されます。このプロセスについては、次のセクションでより詳細に説明します。
https://scrapbox.io/files/668e34feccf073001d3a981a.png
hiroya_iizuka.icon 違いがよくわからなかったが、Claudeが教えてくれた
hiroya_iizuka.icon 一言で言えば、動いてから考えるタイプと、考えてから動くタイプの違い
明示的RCI:
・計画: まず、コンピューターがタスクを解決する計画を立てます。
・批評: その計画の問題点を見つけます(ここではファイル名が特定されていないこと)。
・改善: 批評に基づいて計画を改善します(ファイルの一覧を表示してから削除するように)。
暗黙的RCI:
コンピューターが実際に行動を起こす際に、3つのステップで計画を具体化します:
・タスクに基づいた行動(何をすべきか)
・状態に基づいた行動(現在の状況でどうすべきか)
・エージェントに基づいた行動(コンピューターが実行可能な具体的な指示)
実行:
最終的に、コンピューターは具体的な指示("type "rm code.rb"")を実行します。
2.2 コンピュータタスクのためのRCI
このセクションでは、行動選択を3つの推論ステップに分解することによるコンピュータタスクへのRCIの適用について説明します:タスクのグラウンディング、状態のグラウンディング、エージェントのグラウンディングです。
最初のステップであるタスクのグラウンディングでは、タスク解決のための計画を生成し、この計画に基づいて行動を条件付けます。RCIを使用して計画の成功率を向上させます。
状態のグラウンディングのサブセクションでは、言語ベースのエージェントにとっての環境における行動のグラウンディングの重要性と、暗黙的RCIを使用してタスクにグラウンドされた行動を現在の状態で実行可能なように洗練する方法について議論します。
最後に、エージェントのグラウンディングステップでは、暗黙的RCIを採用し、現在の状態、タスク、タスクにグラウンドされた行動、状態にグラウンドされた行動を条件として、エージェントにグラウンドされた行動をサンプリングすることで、コンピュータエージェントに対する行動の許容性を確保することに焦点を当てます。性能を最適化するためにループ回数を設定します。
2.2.1 問題設定
長ったらしいので、Claudeの解説👇
1. 基本設定:
コンピューターエージェントがあり、これは自然言語で指示を受け取って行動できます。
このエージェントには「できること」のリストがあり、それ以外の指示は無視します。
2. 行動の決定プロセス:
エージェントは、タスクの説明と現在の状況(環境の状態)を受け取ります。
大規模言語モデル(LLM)を使って、最適な行動を選びます。
3. 課題:
行動を選ぶとき、3つのことを同時に考える必要があります:
1) タスクに合っているか
2) 現在の状況で実行可能か
3) エージェントが実際にできる行動か
4. 解決方法:
行動を選ぶプロセスを3つのステップに分けます:
a) タスクのグラウンディング:タスクに最適な行動計画を立てる
b) 状態のグラウンディング:現在の状況で実行可能な行動を選ぶ
c) エージェントのグラウンディング:エージェントが実際にできる行動に変換する
5. プロセスの詳細:
まず、タスク全体の計画を立てます。
次に、その計画に基づいて具体的な行動を選びます。
その行動が現在の状況に合うか確認し、必要なら調整します。
最後に、エージェントが実行できる形に変換します。
6. 改善の仕組み:
各ステップで、RCI(再帰的批評と改善)という方法を使います。
これにより、LLMが各ステップで重要な情報を考慮しながら行動を選べます。
この方法により、コンピューターエージェントはより柔軟かつ効果的にタスクを実行できるようになります。
2.2.2 コンピュータタスクにおける言語モデルのグラウンディング
https://scrapbox.io/files/668e3bfa6e61ad001c8b8b63.png
https://scrapbox.io/files/668e41aa79d26f001ccc7809.png
hiroya_iizuka.icon タスクのグラウンディングは、明示的なRCI
hiroya_iizuka.icon そのあとは、暗黙なRCIをするのか
タスクのグラウンディング
行動サンプリングプロセスの最初のステップでは、タスク解決のための実行可能なステップの計画をLLMから生成します。
その後、現在の状態、タスク、および生成された計画を考慮して、同じLLMから行動をサンプリングします。
計画を条件とすることで行動のグラウンディングを改善する利点は2つあります。
第一に、LLMがエージェントの位置するタスク解決の段階を特定できるようになり、メモリモジュールとして機能します。
第二に、生成された計画に対して明示的なRCIを実行し、計画の成功率をさらに向上させることができます。
明示的なRCIループの数は任意ですが、MiniWoB++タスクのほとんどでは1回の明示的なRCIで十分であることを観察しています。 hiroya_iizuka.icon わかったようでわかってないから、Claudeちゃんに解説してもらた
1. 最初のステップ:
・LLM(大規模言語モデル)に「どうやってこの課題を解決するか」を考えてもらいLLMは課題を解決するための手順(計画)を作ります。
2. 次のステップ:
・その計画を見ながら、今の状況と課題も考えて、LLMに「次に何をすべきか」を決めてもらいます。
・これが「行動のサンプリング」です。
3. このやり方の良いところ:
a. LLMが「今どこまで進んでいるか」を理解できます。
例えば、5つのステップがある計画の3番目まで終わっていれば、あと2つだとわかります。これは人間で言えば「ここまでやったな」と覚えておくのと同じです。
b. 計画自体を良くすることができます。
最初に作った計画に問題があれば、RCI(再帰的批評と改善)という方法で修正します。例えば、「この順番では効率が悪いかも」と気づいたら、順番を変えるなどの改善ができます。
つまり、この方法では「大まかな計画を立てて、その計画に沿って一つずつ行動を決める」というアプローチを取っています。これにより、コンピューターがより効率的に、そして柔軟に課題を解決できるようになるのです。
状態のグラウンディング
言語ベースのエージェントにおいて、環境における行動のグラウンディングは実世界のタスク遂行を可能にするための重要なステップです。
このフェーズの目的は、タスクにグラウンドされた行動を、現在の状態で実行可能なように強化することです。
前のフェーズで生成された行動はタスクに沿っているかもしれませんが、現在のコンテキストで実行するために必要な具体性が欠けている可能性があります。
例えば、ボブからアリスにメールを転送するというタスクが割り当てられ、タスクのグラウンディングフェーズから得られた行動がメールの受信箱でボブからのメールをクリックするというものだった場合、「ボブからのメール」という抽象的な概念と、現在のウェブページの状態をHTMLで表現した中の具体的な要素(メールの見出しなど)との間に関連性を確立する必要があります。
この目的を達成するために、我々は暗黙的なRCIを実行し、LLMに現在の状態を考慮するようプロンプトを与え、その結果、洗練された状態にグラウンドされた行動を出力します。
さらに、状態にグラウンドされた行動は、タスクにグラウンドされた行動を追加の条件として与えられます。
我々の観察に基づくと、暗黙的なRCIサイクルを1回以上繰り返しても成功率に影響を与えないため、1回以上の繰り返しは避けています。
エージェントのグラウンディング
意思決定プロセスにおける言語ベースの方法論の成功的な統合を確保するためには、言語モデルから導出された行動の許容性を保証するスケーラブルなフレームワークを確立することが不可欠です。
サンプリングの前のステップで生成された状態にグラウンドされた行動は、タスクに沿っており実行可能であるかもしれませんが、不適切なフォーマットなどの問題により、エージェントによって実行できない可能性があります。
これに対処するために、暗黙的なRCIが採用され、現在の状態、タスク、タスクにグラウンドされた行動、および状態にグラウンドされた行動を条件として、エージェントにグラウンドされた行動がサンプリングされます。
LLMには、コンピュータエージェントの仕様を考慮するようプロンプトが与えられます。暗黙的なRCIは、結果として得られる行動が実行可能になるまで繰り返し実行されます。ただし、反復回数を制限するために最大ループ回数が設定されます。MiniWoB++タスクに関する経験的分析では、ループ回数を3に設定することで最適な性能が得られることが示唆されています。
3 評価
3.1 推論タスク
我々のグラウンディング強化プロセスでは、RCIはLLMに与えられたコンテキスト(例:現在のタスク、状態、エージェント)を考慮して、その前の出力を批評するようプロンプトを与え、最終的により良い出力につながります。まず、RCIプロンプトがLLMの推論能力を一連の推論ベンチマークにわたって向上させる効果を実証します。我々はRCIを、推論タスクにおいてその効果が認められている最先端の手法である思考の連鎖(CoT)プロンプティングと比較します。
具体的には、我々のアプローチを、Few-Shot-CoT とZero-Shot CoTをプロンプトに追加することで複数の推論ステップを引き出す)と比較します。Kojima et al. に従い、我々の評価は算術と常識の2つのカテゴリーから8つのデータセットで実施されます。データセットの包括的な説明については付録C.2を参照してください。 hiroya_iizuka.icon いつもの推論データセット
https://scrapbox.io/files/668e42bd803a14001c7cc699.png
我々は、基礎となる言語モデルとしてInstructGPT-3 + RLHF(gpt-3.5-turbo)を使用する以外は、彼らの回答抽出方法と同じ実験設定を使用します。我々はCoTが使用するのと同じプロンプトを使用し、CoTで使用される回答クレンジングアプローチも使用しますが、回答抽出プロンプティングはゼロショットCoT実験でのみ使用しました。また、Chain of Thought (CoT)論文で導入された同じfew-shot例を使用して、5つの算術推論タスクにおけるFew-Shot CoTの性能を評価します。RCIループの最大数を2に設定し、出力が正解データと一致した時点でループを終了するというしきい値を設定します。この外部フィードバックメカニズムがない場合、RCIプロセスは偽陰性の批評を生成しやすく、結果として性能が低下することを観察しました。実験結果は、外部フィードバックのないRCIがベンチマークテストの半分でゼロショット性能を達成しますが、他のテストでは性能が低下することを示しています。これは付録17に示されています。 https://scrapbox.io/files/668e4491e856b5001cd0313a.png
ゼロショットとの比較
RCIプロンプティングは、標準的なゼロショットプロンプティングと比較して、推論タスクをより良く解決します。表1は、各推論ベンチマークにおける我々のアプローチ(Zero-Shot + RCI)と標準的なゼロショットプロンプティングの精度をまとめたものです。Zero-Shot + RCIは、算術(GSM8K、MultiArith、AddSub、AQUA、SVAMP、SingleEq)と常識(CommonSenseQA、StrategyQA)のタスクを含むすべてのベンチマークで標準的なプロンプティングを大幅に上回ります。
https://scrapbox.io/files/668e4606df3b24001ddb7d8a.png
RCIプロンプティングは、複数ステップの推論を必要としない2つの算術推論タスク(SingleEqとAddSub)でさえスコアの向上を達成します。 これは、単純な推論タスクでは有用でない以前のCoTプロンプティング手法とRCIプロンプティングを区別するものです。
hiroya_iizuka.icon そか、簡単すぎる算術タスクでは、CoTで性能落ちたよね
Wei et alは、非常に大規模なPaLM(540B)モデルのみがFew-Shot-CoTの恩恵を受けられると報告していましたが、
https://scrapbox.io/files/668e46fb2376c0001dbc10df.png
RCIプロンプティングはより小規模なInstructGPT-3 + RLHF(175B)モデルでも性能向上を提供できます。
算術と思考の連鎖の比較
表2は、算術推論タスクにおけるRCIとCoTベースラインの性能結果をまとめたものです。
https://scrapbox.io/files/668e483c466fd0001d8e7185.png
注目すべきは、Zero-Shot + RCIがMultiArithを除く4つのタスクでCoTプロンプティングなしでZero-Shot CoTとFew-Shot CoTを上回ることです。MultiArithタスクでは、標準的なプロンプティングの回答のほとんどが正解(96.06%)であるため、RCIプロンプティングは大きな性能向上をもたらしません。RCIプロンプティングは2つのCoTベースラインに対して相乗的な協調効果があります。つまり、Zero-Shot CoT + RCIとFew-Shot CoT + RCIは5つのタスクのうち4つで最高スコアを達成します。これらの発見は、RCIをself-consistencyなどのCoTのための他のプロンプティング手法と組み合わせるという将来の研究の有望な方向性を示唆しています。 3.2 コンピュータタスク
3.2.1 セットアップ
MiniWoB++ベンチマークスイート
miniwob++タスクスイートは、我々のコンピュータエージェントを評価するための主要なベンチマークとして選択されました。MiniWoB++は、MiniWoB の拡張版で、単純なボタンクリックから数学問題を解くなどの高度な推論を必要とする複雑な構成タスクまで、幅広いコンピュータタスクを提供するウェブベースのシミュレーション環境です。 キーボードとマウスを含む共有アクション空間と、HTMLコードを中心とした共通の状態空間により、提案されたエージェントを十分なタスクで徹底的に評価することができます。
さらに、タスク間の複雑さの違いにより、我々の研究の体系的な評価が可能になります。アクション空間は、キーボードとマウスをそれぞれ制御する2つの操作で構成されています。
最初の操作では、任意の文字や特殊キー(BackspaceやEnterなど)の入力が可能です。2つ目の操作は、マウスの移動とクリックを含み、ウェブページ上の可視的なHTML要素と対話することができます。すべての操作は、LLMに提供される初期プロンプト内に提示される正規表現で定義された自然言語指示を通じて実行できます。我々の評価で使用される正規表現は付録Dに示されています。我々のアクション空間の定義は、クリック操作が直接HTML要素と対話する点で、以前の研究と類似しています。ただし、タイピング操作については、単純なフォーム入力を超えて、キーボードベースのタイピング操作を使用しています。エージェントが事前定義されたテキストの辞書から選択するだけの辞書ベースのタイピング操作に依存するのではなく、我々のアプローチでは、エージェントが適切なテキスト入力を予測する必要があります。したがって、我々のアプローチは、多様なコンピュータタスクに対してより良い一般化能力を持っています。我々のエージェントの状態空間は、HTMLコードのみで構成されています。
モデルの選択
RCIプロンプティングの有効性を評価するために、我々の実験では複数の言語モデルが使用されています。具体的には、GPT-3(davinci)、InstructGPT(text-davinci-002)、InstructGPT-3 + RLHF(gpt-3.5-turbo、gpt-4)の3つのモデルを使用しています。 特に指定がない限り、我々はInstructGPT-3 + RLHFモデル(gpt-3.5-turbo、gpt-4)を主に使用してコンピュータエージェントを評価します。さらに、アブレーション研究にはGPT-3とInstructGPT-3モデルを使用します。すべてのモデルはOpenAI APIを通じて取得され、詳細は付録C.1に記載されています。
評価されたタスク
我々は、ベースラインとの公平な比較を可能にするために、55のタスクのセットを使用します。これは、以前の研究が一貫してタスクのサブセットでのみ評価されているためです。さらに、モデルの性能をチャレンジングなタスクで評価するために、以前の研究でほぼゼロの成功率が報告されている自由形式の言語タイピング操作を含むタスク(例:terminal)を選択しました。特筆すべきは、以前の研究で一般的に評価されていた特定のタスクが、一部のUI要素のHTMLコードが過度に長いため除外されていることです。これについては付録C.3で説明されています。
指標
先行研究と一致して、我々の主な評価基準は成功率です。これは、エージェントが割り当てられたタスクを実際に完了する能力を測定します。この率は、正の報酬を受け取ったエピソードの割合として計算されます。
我々は、実行不可能な行動の生成とタスクの失敗という2つの失敗モードを特定しました。エージェントが暗黙的なRCIステップの後に実行不可能な行動を生成した場合、即座に失敗します。さらに、エージェントが生成された計画を効果的に実行したにもかかわらず、タスクを達成できず、したがって報酬を受け取れない場合、そのエピソードは失敗とみなされます。
3.2.2 MiniWoB++タスクスイートでベースラインを上回る
図4aは、MiniWoB++ベンチマークにおける我々のエージェントとベースラインモデルの平均成功率をまとめたものです。
https://scrapbox.io/files/668e4be72376c0001dbc4e33.png
hiroya_iizuka.icon すごい、RCI 実質No1じゃん
結果は、我々のアプローチが教師あり学習モデルを大幅に上回ることを示しています。具体的には、12Kの専門家によるデモンストレーションデータでファインチューニングされた大規模言語モデルを使用するWebN-T5-3Bよりも41%高いスコアを観察しました。我々のアプローチは、環境との相互作用が桁違いに多い強化学習アプローチも上回ります。すべてのベースラインの中で、我々のアプローチは2番目に高いスコアを達成しています。我々のエージェントを上回る唯一のモデルは、強化学習と模倣学習の共同訓練を含むCC-Netです。しかし、CC-Netとの直接比較は不可能です。なぜなら、CC-Netは一部のタスクでタイピング操作に辞書ベースの行動を使用しているのに対し、我々のアプローチは完全に生成的だからです。したがって、図4aの「CC-Net(辞書ベースの行動なし)」が我々の適切な比較対象であり、我々はそれを6%上回っています。CC-Net(辞書ベースの行動なし)の性能データは、彼らの論文のアブレーション研究セクションから得られています。
もう1つの比較分析は、教師あり学習、強化学習、およびその両方の組み合わせという3つのカテゴリーにおける最先端のエージェントと我々のエージェントの性能を評価するために行われました。公平な比較を促進するために、我々はコンピュータタスクの解決に対する我々のアプローチと類似点を共有するLLMベースの最先端アプローチを特に分離しました。各カテゴリーで達成された最高のタスクごとの性能が集計され、その結果が図4aのSoTAとして提示されています。
https://scrapbox.io/files/668e4c8c0ddc24001c81efec.png
結果は、我々のエージェントが教師あり学習では37パーセントポイント、強化学習では27パーセントポイントSoTAを上回っていることを示しています。特筆すべきは、我々が提案するRCIプロンプティング手法が、後者がファインチューニングとプロンプトにおけるfew-shot例の両方を使用している場合でも、SoTAのLLMアプローチを上回ることです。
この結果は、我々のアプローチがコンピュータタスクのための重要な知識をLLMから抽出する効果を強調しています。我々のエージェントは、教師あり学習と強化学習を組み合わせた使用においてさえSoTAをわずかに上回っています(1パーセントポイント未満)。この組み合わせは、はるかに多くの専門家データとオンライン相互作用を使用します。
我々は図10にタスクレベルの性能比較も提供しています。
https://scrapbox.io/files/668e4d5223a912001d18ddcd.png
ここでは、タスクは我々のエージェントの性能とベースラインとの差に基づいて昇順に配置されています。我々は、我々のエージェントの3つの主要な失敗モードを観察しました:
(i) 長期的な計画を必要とするタスクでの性能不足(例:guess-number、search-engine、use-spinner)
(ii) 複数ステップの推論を必要とするタスクに対して適切な行動を選択することの困難さ(例:tic-tac-toe、use-autocomplete)
(iii) タスクを解決するためにHTMLコードの視覚的レンダリングに依存するタスクでのスコアの低さ(例:count-shape)。これらの失敗については、付録Fでより詳細に説明されています。
3.2.3 最低のサンプル複雑性
skip
3.2.4 グラウンディングのアブレーション
このセクションでは、グラウンディングの改善がタスクの成功率に与える影響を検証します。我々は、各段階でRCIプロンプティングを除去することで、タスク、状態、エージェントのグラウンディング改善の貢献を分離するためのアブレーションを実施します。多様なタスクにわたるグラウンディング改善の効果をより詳細に理解するために、タスクを3つの異なる難易度レベルで分類します。
我々は、計画サンプリング段階を除去することでタスクのグラウンディングのアブレーションを実施しました。この修正には、ステップバイステップの計画に条件付けることなく、状態から直接行動を生成することが含まれます。状態のグラウンディングは、タスクにグラウンドされた行動に直接エージェントのグラウンディング更新を適用することで評価されます。最後に、状態にグラウンドされた行動をエージェントの最終出力とすることで、エージェントのグラウンディングの暗黙的なRCIをアブレーションします。
図5は、各グラウンディングのアブレーションによる性能低下を示しています。
https://scrapbox.io/files/668e4e1ded7d6f001cf0df78.png
我々の結果は、各グラウンディングの貢献がコンピュータタスクを解決するために不可欠であり、それぞれがほぼ同等に全体の成功率に貢献していることを示しています。これは部分的に、3つのグラウンディング改善方法が互いに排他的ではなく、むしろ相補的であり、1つのグラウンディングの強化が複数の行動グラウンディングに貢献するという事実によるものです。クロスグラウンディング改善の例は付録Eに提供されています。
さらに、状態のグラウンディングが、特に初期状態がタスクを達成するための十分な情報を提供しないシナリオ(例:terminalタスク)において、エージェントがエピソード中に関連情報を使用できるようにする上で重要な役割を果たすことが観察されています。興味深いことに、タスクのグラウンディングは、click checkboxes largeタスクのような長期的な行動計画を必要とするタスクにおいて成功率を大幅に改善します。また、エージェントのグラウンディングが行動の実行可能性を大幅に向上させることも観察しています。特に、より単純なタスクでは、エージェントのグラウンディングなしのベースラインと比較して成功率が60%低下します。この発見は特に重要です。なぜなら、それは追加の訓練されたモデルコンポーネントを採用する以前の調査と我々の研究を区別するからです。対照的に、我々の研究は言語モデルの推論能力のみに依存しています。
3.2.5 言語モデルのアブレーション
我々のエージェントの性能は、使用される基礎となる事前学習済み言語モデルの品質に依存しているため、言語モデルを強化することでエージェントの性能を向上させることができます。このセクションでは、3つの異なる言語モデル:GPT-3、InstructGPT-3、InstructGPT-3 + RLHF(gpt-3.5-turbo)を使用したエージェントの性能比較を提示します。我々の目的は、LLMの能力とMiniWoB++タスクを解決する能力との関係を調査することです。
セクション3.2.4で採用された実験設定がこの研究でも複製されています。図6は、3つの言語モデルの様々な難易度レベルのタスクにおける平均成功率を示しています。
https://scrapbox.io/files/668f6efcec312a001c8d75bd.png
我々の結果は、LLMが命令ファインチューニングなしではタスクを効果的に完了するのに苦労することを明らかにしています。これは、複雑なプロンプトエンジニアリングの欠如に起因する可能性があります。なぜなら、我々の観察では、GPT-3がHTMLコード、正規表現の理解、および推論への従事において十分な能力を示していることが示されているからです。
4 制限事項
我々の研究の過程で、さらなる研究の潜在的な方向性となりうるいくつかの制限が明らかになりました。一つの中心的な懸念は、我々が主にInstructGPT-3 + RLHFモデル(gpt-3.5-turbo、gpt-4)に焦点を当てており、RCIの他のモデルへの一般化能力が未探索のままであることです。
hiroya_iizuka.icon Claudeでも有効か、わかんないよね
RCIの多様なモデルにわたる汎用性は関連する問題であり、将来の研究ではRCIの堅牢性と適応性を決定するためにその範囲を拡大すべきことを示唆しています。
長いHTMLの処理は別の課題を提示します。現在のモデルは広範なHTML状態の処理に苦戦しています。HTMLの状態から重要でない要素を除外することで効率が向上する可能性が示唆されていますが、タスク自体は些細なものではありません。LLMの基本的な制約は、限られたコンテキスト長であり、これが広範なHTML状態を効果的に処理することを妨げる可能性があります。これに対処するには、アーキテクチャの調整や新しい解析方法が必要かもしれません。我々のエージェントのアクション空間は、主にクリックとタイピングに限定されており、ウェブナビゲーション能力を制限しています。よりシームレスな体験のために、その行動を多様化する必要があります。さらに、エージェントの短期的な決定に焦点を当てていることは、特に協調的な順序を必要とするタスクにおいて、長期的な戦略の必要性を見落としています。この焦点を広げることは、多様なアプリケーションにとって不可欠です。最後に、現代のウェブサイトを占める複雑なUIコンポーネントは、LLMがHTML状態を完全に理解することを難しくしています。HTMLだけでは識別できないかもしれないそのようなコンポーネントの微妙なニュアンスは、状態定義にさらなるモダリティを追加する必要性を強調しています。これらの問題に対処することは、RCIエージェントをより適応性が高く効率的なものにし、実用的なアプリケーションにおいてより効果的にするために重要です。